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序 之 前 看 到 的 信息 口 ， 如 应 用 程序 描述 、 评 分 等 。Android 应 用 ”研究 聚焦 于 应 用 程序 的 权限 53、Java 代码 广 9 等 静态 特征 


一 种 基于 元 信息 的 Android 恶意 软件 检测 方法 “ 
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(江西 理工 大 学 信息 工程 学 院 , 江西 3&3 341000) 


摘 要 : Android 应 用 普遍 具有 比 所 属 类 型 更 多 的 功能 ， A 过 多 的 权限 可 能 带 来 一 定 的 安全 隐患 。 
针对 这 类 问题 ， 提 出 一 种 基于 元 信息 的 Android 恶意 软件 检测 方法 。 首 先 ， 通 过 对 Android 应 用 程序 描述 进行 LDA È 
题 提取 ， 实 现 数据 降 维 ， 使 用 K-means 聚 类 算法 按照 功能 类 型 对 应 用 程序 分 组 ; 然后 ， 对 属于 同一 功能 类 型 的 所 有 应 
用 程序 ， 提 取 其 权限 信息 ， 以 权限 特征 为 研究 对 象 ， 使 用 kNN 算法 进行 Android 恶意 软件 的 分 类 检测 。 实 验 结果 获得 
94.81% 的 平均 准确 率 ， 证 明 方 法 的 有 效 性 和 高 准确 率 。 
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Android malware detection method based on meta-information 


Li Jianghuat, Qiu Chen 
(School of Information Engineering Jiangxi University of Science & Technology, Ganzhou Jiangxi 341000, China) 


Abstract: Many applications have more functions than their types, and they need to acquire more permissions. Excessive 
permissions may bring some security risks. To address these issues, this paper proposes an Android malware detection method 
based on meta information. First, through the description of Android application of LDA theme extraction, the implementation 
of data dimensionality reduction, using the k-means clustering algorithm in accordance with the functional type of the 
application group; Then, for all applications belonging to the same functional type, extract their permission information, and 
take the permission features as the research object, using KNN algorithm to classify and detect the malicious software of 
Android. The experimental results obtained the average accuracy of 94.8196 and proved the validity and high accuracy of the 
method. 
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引言 1 ”相关 研究 
Android 应 用 程序 元 信息 ， 是 指 用 户 在 下 载 和 安装 应 用 程 当前 ， 在 进行 Android 恶意 软件 检测 方法 的 研究 时 ， 多 数 


和 系 


程序 元 信息 包含 的 信息 种 类 非常 多 ， 同 时 ， 由 于 各 大 应 用 市 场 ” 统 调用 中 、 网 络 流量 等 动态 特征 上 ， 针 对 动态 特征 进行 
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的 管理 方式 、 经 营 方式 和 设计 方式 的 不 同 ， 用 户 看 到 的 信息 也 ”或 者 使 用 动态 特征 和 静态 特征 相 结合 的 方式 09 赢 得 了 更 多 科 


有 所 区 别 。 研 人 员 的 青睐 。 
Android 应 用 程序 描述 的 作用 是 对 应 用 程序 进行 介绍 ， 说 周 裕 娟 等 人 0 提出 了 一 种 使 用 权限 信息 和 权限 提升 威胁 


明 其 功能 。 需 要 注意 的 是 ， 很 多 应 用 程序 提供 了 比 所 m E 信息 作为 特征 进行 Android 恶意 软件 检测 的 方法 。Enck AN 


多 的 功能 ， 这 在 应 用 程序 描述 中 才能 够 看 到 。 


i 


提出 了 一 种 Kirin 安全 规则 进行 Android 恶意 软件 检测 。Felt 等 


应 用 程序 要 执行 其 功能 ， 需 要 相应 的 权限 支持 ， 很 多 应 用 “人 史 9 认 为 应 用 程序 的 任何 行为 都 是 与 API 的 调用 有 关 的 ， 而 
有 具 有 比 所 属 类 型 更 多 的 功能 ， 需 要 获取 更 多 的 权限 ， 过 多 的 权 API 调用 又 可 以 映射 到 权限 ， 他 们 在 研究 中 使 用 了 一 种 可 以 上 E 
限 可 能 带 来 一 定 的 安全 隐患 。 要 确定 这 样 的 应 用 是 否 为 恶意 应 SERRI Android API 调用 的 工具 ， 以 便 构 建 检测 超额 权限 所 
用 ， 需 要 进一步 的 分 析 检 测 。 必需 的 权限 映射 ， 用 实验 证 明 有 三 分 之 一 的 应 用 程序 存在 过 度 


5, 


请 权限 的 情况 。 杨 欢 等 人 [利用 关联 规则 挖掘 的 方式 试图 找 


收 稿 日 期 : 2018-04-08; 修 回 日 期 : 2018-05-29 ”基金 项 目 : 国家 自然 科学 基金 资助 项 目 (61463021，61762046); 江西 省 教育 厅 科 技 项 目 (GJJ160599， 
GJJ170516) 


作者 简介 : 李江 华 (1976-), 男 ( 通 信 作 者 ), 河南 新 野人 , 博士 , 主要 研究 方向 为 信息 安全 ,语义 Web、 大 数据 分 析 与 处 理 (4912170@qq.com); SER (1992), 


江西 九江 人 ， 硕 士 ， 主 要 研究 方向 为 信息 安全 .机 器 学 习 . 


201808.00074v1 


chinaXiv 
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上 权限 的 组 合 关系 与 恶意 应 用 程序 相关 上 


的 规则 ， 


进行 恶意 软件 检测 ， 最 后 获得 了 STU 
在 其 


十 


XP 


INTERNET 
有 户 的 位 置 ， 但 是 某 


基于 这 个 规则 
文 伟 平等 人 09 


究 中 也 给 出 了 一 套 危 险 权 限 组 合 规 则 ， 如 权限 组 合 
RECEIVE BOOT COMPLETED 
ACCESS COARSE _ LOCATION， 会 泄露 月 


十 


名 为 “Puppet Football Fighters-Steampunk Soccer” 体 育 游戏 类 应 


ji. KARIK CER 


E: 


合 权限 规则 并 不 具有 普遍 适用 性 。 


权限 


android.permission.ACCESS_ COARSE LOCATION 
android.permission. ACCESS NETWORK STATE 


android.permission.ACCESS WIFI STATE 
android.permission.|INTERNET 


android.permission.RECEIVE BOOT COMPLETED 


android.permission.VIBRATE 
android.permission. WAKE LOCK 


android.permission. WRITE EXTERNAL STORAGE 


com.android.vending.BILLING 


com.google.android.c2dm.permission.RECEIVE 


15 就 包含 这 种 组 合 ， 使 用 权威 检测 网 站 
VirusTotal 对 其 进行 检测 , 检测 结果 为 良性 软件 。 


这 说 明和 危险 组 


com.noxplay.PuppetFootballFighters.permission.C2D MESSAGE 


区 


1 某 应 


程序 权限 列 


表 


受 限于 硬件 和 软件 技术 ,一 些 方法 即使 取得 了 较 好 的 效果 ， 


也 不 便于 推广 和 应 用 。 因 此 ， 基 于 Android 应 用 程序 元 信息 的 
恶意 软件 检测 受到 了 一 部 分 研究 者 的 关注 ,开展 了 一 定 的 研究 。 


使 | 
一 种 名 为 ADROIT 的 方法 ， 
声称 最 终 获得 了 93.67% 的 精度 。 这 类 研究 中 采 | 


Teufl 4& AUS 


Jf; Google P 


机 器 学 习 算法 进行 分 类 。 


Martin 等 人 [9 在 基 


使 用 复杂 的 知识 发 现 过 程 和 精益 统计 的 方法 
来 分 析 从 Google 官方 应 用 市 


lay 收集 的 元 信息 ， 并 


研究 中 


探索 了 


使 用 了 多 种 元 信息 作为 实验 数据 ， 


的 元 信息 种 类 


的 。 举 例 说 明 ， 设 有 A、B、C、D 四 个 应 用 程序 ， 它 们 的 功能 
如 表 1 所 示 ， 经 过 聚 类 处 理 后 将 A、B、C、D 四 个 应 用 程序 按 
照 功能 进行 分 组 ， 结 果 如 表 2 所 示 ， 其 中 每 个 组 的 名 称 用 功能 
表示 。 
表 1 功能 列表 
应 用 程序 功能 
A 功能 1 功能 2 功能 3 功能 4 
B 功能 1 功能 5 功能 6 一 
C 功能 2 功能 6 一 一 
D 功能 4 功能 6 功能 7 一 
K2 NW HR 
功能 应 用 程序 功能 应 用 程序 
功能 1 A，B 功能 5 B 
功能 2 A, C 功能 6 B,C, D 
功能 3 A 功能 7 D 
功能 4 A，D 


b) 对 于 同一 功能 类 型 的 


所 有 应 用 程序 ， 提 取 其 权限 信息 ， 


以 权限 特征 为 研究 对 象 ， 进 行 Android 恶意 软件 的 分 类 检测 。 
权限 是 应 用 程序 获得 某 种 功能 的 能 力 的 标志 ， 因 此 ， 相 同 
功能 类 型 的 应 用 程序 应 当 具 有 相同 或 相似 的 权限 列表 ， 若 某 个 
应 用 程序 具有 多 余 的 权限 ， 那 么 该 应 用 程序 就 有 可 能 是 恶意 性 
的 ， 通 过 对 权限 进行 分 析 ， 以 确定 其 是 否 为 恶意 应 用 。 分 析 过 
程 如 下 : 
a) 针 对 同一 功能 类 型 的 所 有 应 用 程序 ， 统 计 出 其 权限 列表 


中 不 同 权 限 的 名 称 (Pi Past Pm) 


以 及 个 数 m 。 


b) 给 权限 的 名 称 随机 确定 一 个 排列 顺序 或 者 按照 既定 的 顺 
序 〈 如 字典 顺序 ) 排序。 


9 对 于 某 个 应 用 程序 ， 将 其 权限 列表 与 排 好 序 的 权限 列表 


众多 ， 处 理 难度 较 高 。 基 于 此 ，Gorla SADJE THARA ”依次 进行 对 照 ， 匹 配 到 则 记 “1”， 其 余 记 “0”“1” 和 “0” 的 数目 之 
元 信息 种 类 较 少 的 方法 ， 通 过 应 用 程序 描述 确定 应 用 程序 的 主 。 和 等 于 之 前 统计 到 的 不 同 权 限 的 个 数 m， 由 此 得 到 了 该 应 用 程 
题 ， 主 题词 由 研究 者 自行 决定 ， 通 过 对 应 用 程序 的 主题 进行 聚 。 序 关 于 权限 信息 的 m 维 向 量 。 重复 此 步 又， 即 可 获得 所 有 应 用 
类 ,然后 确定 与 主题 相关 的 API 调 用 异常 ,他 们 在 MalGenomensl ”程序 的 权限 特征 向 量 。 
的 数据 样本 上 正确 识别 了 56% 的 恶意 应 用 程序 。 d) 同 组 的 所 有 应 用 程序 构成 样本 集 ， 对 应 用 程序 样本 集 进 
在 使 用 较 少 元 信息 种 类 的 前 提 下 ， 为 了 提高 检测 率 ， 也 为 ” 行 划 分 ， 得 到 训练 样本 集 和 测试 样本 集 。 
确定 具有 更 多 功能 的 应 用 是 否 为 恶意 应 用 ， 本 文 提出 一 种 新 的 6) 将 权限 信息 向 量化 后 ， 计 算 训练 样本 集中 的 权限 向 量 与 
基于 元 信息 的 Android 恶意 软件 检测 方法 ， 以 Android 应 用 程 。 测试 样本 集中 某 待 测 样本 权限 向 量 之 间 的 相似 度 。 若 训练 样本 
序 元 信息 为 研究 对 象 , 进行 Android 恶意 软件 检测 方法 的 研究 。 ”集中 某 样本 权限 向 量 与 待 测 样本 权限 向 量 的 相似 度 达到 某 个 预 
2 krk EUIS. UVCSISIDER STARS Mss S UE 
本 是 恶意 应 用 , 则 待 测 样本 是 恶意 应 用 ; 若 该 样本 是 良性 应 用 ， 
本 文 方法 选择 的 研究 对 象 是 Android 应 用 程序 描述 和 权限 ， ” 则 待 测 样 本 是 良性 应 用 。 
它们 都 属于 Android 应 用 程序 元 信息 。 方 法 有 两 个 主要 步骤; 举例 说 明 ， 如 表 2 所 示 ， 功 能 6 代表 的 组 别 中 有 B、C、D 
a) 根据 Android 应 用 程序 描述 确定 应 用 程序 的 功能 类 型 ， ”三 个 应 用 程序 ， 要 对 功能 6 这 一 组 的 应 用 程序 进行 分 析 ， 那 么 
按照 功能 对 应 用 程序 分 组 。 这 三 个 应 用 程序 就 构成 了 应 用 程序 样本 集 ， 将 这 个 应 用 程序 样 
Android 应 用 程序 描述 用 于 介绍 应 用 程序 的 功能 ， 从 中 提 ” ” 本 集 划分 成 训练 样本 集 和 测试 样本 集 ， 应 用 程序 B、C 构成 训 
取出 描述 功能 的 关键 词 ， 然 后 使 用 聚 类 算法 进行 聚 类 ， 可 确定 — 练 样本 集 ， 应 用 程序 D 构成 测试 样本 集 。 假 设 B 为 恶意 应 用 ， 
应 用 程序 的 功能 类 型 ， 进 而 达到 按照 功能 对 应 用 程序 分 组 的 C 为 良性 应 用 。 对 权限 信息 向 量化 后 ， 若 OB 的 权限 向 量 是 
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录用 稿 


(XX2 Xn) , 


量 是 


每 个 样本 即 B、 


IL 


设 度量 标准 7 ， 


EJE (EE x SX) o tb s 


Eg . W D 的 性 质 与 B 相同 ，D 为 恶意 应 用 ; F Sco 达到 预 


C UREE Gases) D 的 权限 向 
| 样本 D, 计算 其 与 训练 样本 集中 
C 的 相似 度 sw。 、 sco 。 若 San 达到 预 设 度量 标 


则 D 的 性 质 与 C 相同 ，D 为 良性 应 用 。 


3 ”实验 及 分 析 


3.1 实验 方案 


l 
李江 华 ， 等 :一 种 基于 元 信息 的 Android 恶意 软件 检测 方法 


限 列表 中 只 包含 Normal 类 权限 的 应 用 程序 ， 因 为 它们 都 是 
性 应 用 。 这 就 是 本 文 实验 最 终 使 用 的 样本 数据 。 
3.3 数据 预 处 理 

应 用 程序 描述 是 文本 数据 ， 需 要 经 过 处 理 才 能 被 计算 机 识 


经 过 清洗 过 程 后 ， 得 到 关于 应 用 程序 描述 的 语料库 ， 然 后 
针对 语料库 使 用 LDA 主题 模型 进行 主题 抽取 。 经 过 LDA 主题 
模型 处 理 后 能 够 得 到 文档 与 主题 词 的 关系 CRAE), 这 种 关系 


针对 上 述 方 法 进行 实验 验证 。 本 文 实验 的 运行 环境 如 下 : 

a) 硬件 环境 .CORE i3 处 理 器 、Windows7 64 位 操作 系统 、 
内 存 为 4GB 的 笔记 本 电脑 。 

b) 软件 环境 。 编程 环境 为 PyCharm 5.0.3， 编 程 语 言 为 
Python， 编 译 器 为 Python 3.5. 

获取 到 实验 数据 后 ， 经 过 数据 预 处 理 ， 将 分 组 实验 使 用 的 


Android 应 用 程序 描述 进行 文本 清洗 ， 处 理 过 后 即 可 得 到 关于 


Android 应 用 程序 描述 的 语料库 ,使 用 LDA 主题 模型 进行 主题 


抽取 ， 然 后 将 主题 词 向 量化 。 将 应 用 程序 描述 转换 为 K-means 
算法 能 够 处 理 的 数据 后 ， 使 用 K-means 算法 进行 聚 类 处 理 ， 得 
到 具有 相似 性 质 的 个 簇 群 ， 通 过 LDA 主题 模型 处 理 的 结果 


可 得 到 这 些 簇 群 中 的 主题 词 及 其 所 对 应 的 应 用 程序 。 
按照 功能 类 型 分 组 应 用 程序 后 ， 采 用 权限 特征 ， 进 行 分 类 


检测 实验 。 所 有 实验 数据 样本 都 先 通过 权威 网 站 VirusTotal 确 
定 应 用 程序 样本 的 性 质 (良性 或 恶意 ), 然后 提取 应 用 程序 样本 
的 权限 信息 ,以 权限 特征 为 研究 对 象 , 使 用 KNN 算法 进行 分 类 
检测 ， 将 检测 结果 与 由 VirusTotal 得 到 的 结果 作对 比 ， 以 验证 
分 类 算法 的 检测 效果 。 


3.2 ”实验 数据 


本 文 所 有 数据 均 来 自 于 Aptoide 应 用 市 场 ， 通 过 网 络 疏 虫 
获得 , Aptoide 应 用 市 场 提供 的 Android 应 用 程序 元 信息 条 目 比 


较 全 。 所 获得 的 信息 包括 应 用 程序 描述 、 评 分 、 兼容 性 (Android 


版 本 )、 权 限 、 


应 用 程序 名 称 、 大 小 、 应 用 程序 版 本 号 、 发 布 时 


间 、 适 用 最 小 屏幕 、 支 持 的 处 理 器 型 号 、 程 序 包 ID、MD5 值 、 


签名 SHA1, H 


ENUECH T Hit 17 812 条 app 元 信息 记录 。 


F 发 人 员 代 号 、 组织、 地 点 、 国 家 、 省 市 等 信息 ， 


Aptoide 应 用 市 场 是 开放 性 市 场 , 它 面向 全 世界 开放 ,所 有 


概率 ( 百分比》 表示， 如 表 3 所 示 。 
RI 文档 、 主 题词 关系 


Ser 


主题 词 ! 主题 词 2 主题 词 3 主题 词 4 
文档 1 0.6 0.3 0.1 0 
文档 2 0 0.5 0.3 0.2 
文档 3 0.2 0 0 0.8 


通过 LDA 主题 模型 不 仅 获得 了 文档 与 主题 词 的 关系 ， 同 
时 也 对 数据 进行 了 降 维 处 理 。 到 这 一 步 ， 依 然 没 有 将 样本 处 理 
成 为 K-means 算法 能 够 处 理 的 数据 ， 接 下 来 对 主题 词 进行 向 量 
化 ， 将 主题 词 转换 为 特征 向 量 。 
举例 说 明 ， 现 在 有 三 个 句子 ， 要 将 其 向 量化 : 
a) Apple is delicious. 


lm 
T 


b) Iove apple. 

c) Apple is delicious and I love apple. 

通过 删除 特殊 字符 ， 去 除 停 用 词 等 清洗 过 程 后 ， 这 三 句 话 
就 转换 为 如 表 4 所 示 的 表格 。 第 一 句 话 向 量化 表示 为 [1.0.1.0]， 
第 二 句 表示 为 [LLo.] ， 第 三 句 表示 为 [LLLI] ， 至 此 ， 三 个 句 
子 向 量化 完成 。 


表 4 主题 词 向 量化 


apple I delicious love 
“jl I 0 1 0 
fj 2 1 1 0 1 
&J 3 1 1 1 1 


事实 上 ， 针 对 清洗 过 后 得 到 的 语料库 直接 进行 向 量化 也 可 
以 达到 目的 。 但 是 本 文 并 没有 这 样 做 ， 而 是 选择 先进 行 LDA 
主题 抽取 ， 然 后 再 向 量化 主题 词 。 原 因 在 于 聚 类 算法 在 涉及 少 


人 都 可 以 在 其 中 发 布 自己 开发 的 应 用 程序 ， 因 此 ， 这 个 应 用 市 
场 包 含 世 界 各 国 的 开发 人 员 的 作品 ， 应 用 程序 描述 也 是 由 各 种 
语言 表述 。 同 时 ， 很 多 应 用 程序 缺少 部 分 信息 ， 由 于 不 清楚 这 
种 情况 对 实验 结果 是 否 有 影响 ， 所 以 有 必要 对 这 种 情况 进行 处 


为 避免 由 于 信息 的 缺失 对 实验 结果 产生 不 可 预知 的 影响 ， 


I 除了 部 分 


筷 缺 失 的 记录 ; 同时 删除 了 没有 应 用 程序 描述 或 


F) 
立 用 程序 描述 | 


j 非 中 文 和 英文 表达 的 记录 ， 仅 保留 了 由 中 文 或 


英文 表达 Android 应 用 程序 描述 的 记录 。 
经 过 上 述 处 理 过 后 ， 原 本 的 17 812 条 记录 剩余 5000 多 条 


记录 ， 其 中 包含 应 用 程序 描述 、 权 限 和 应 用 程序 名 称 ， 去 除权 


量 特征 时 效果 更 好 。 因 此 ， 将 描述 转换 为 主题 对 于 获得 更 好 的 
聚 类 结果 至 关 重 要 。 
经 过 LDA 主题 模型 进行 主题 提取 后 可 以 确定 文档 和 主题 
关系 、 主 题 与 词 关系 ， 同 时 可 以 输出 提取 到 的 主题 词 。 
3.4 聚 类 分 析 
通常 一 个 应 用 程序 最 多 具有 5 种 不 同类 型 的 功能 ， 故 设 定 
每 篇 文档 最 多 与 5 个 主题 有 关 ， 但 不 排除 这 5 个 主题 词 为 同一 
个 的 可 能 性 ， 这 说 明 该 应 用 程序 没有 多 余 的 功能 。 经 过 LDA 
主题 模型 处 理 后 ， 可 得 到 应 用 程序 描述 文档 与 主题 之 间 的 亲 和 
度 关系 向 量 ， 这 个 向 量 作 为 K-means 聚 类 算法 的 输入 。 实 验 中 
设置 聚 类 质心 数 x ， 取 值 范 围 为 2~30。 结 果 表 明 ， 当 (HO 
14 时 得 到 较 好 的 聚 类 结果 。 根 据 聚 类 结果 将 应 用 程序 分 组 ， 结 
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果 如 表 5 所 示 。 件 ， 但 是 数量 较 少 ， 不 足以 作为 机 器 学 习 算 法 的 训练 样本 。 表 
表 5 应 用 程序 分 组 结 6 中 第 二 、 三 列 数据 的 总 和 均 大 于 实际 样本 数量 和 实际 恶意 软 

类 型 数量 类 型 数量 件数 量 , 导致 这 种 结果 的 原因 是 部 分 应 用 程序 不 只 有 一 个 功能 ， 
connection 739 account and payment 192 被 划分 到 多 个 类 型 中 ， 同 时 如 果 应 用 程序 为 恶意 应 用 ， 由 于 类 

social 574 browser 156 型 的 多 样 性 ， 可 能 会 被 重复 计算 多 次 。 
language 230 news and sharing 961 3.5.1 样本 不 均衡 问题 处 理 方案 

manager 1269 player 753 如 果 样 本 数量 不 均衡 ， 对 结果 的 影响 巨大 。 比 如 训练 样本 
wallpaper 351 navigation 198 集中 包含 两 类 数据 样本 ， 但 是 其 中 一 类 样本 的 数量 比 另 一 类 样 
game 2836 theme and wallpaper 142 本 数量 多 , 按照 kNN 算法 的 多 数 投票 原则 ,因为 * 个 邻近 点 中 
shopping 183 advertisement 398 正确 类 标签 的 数量 比 错误 类 标签 的 数量 少 而 可 能 导致 分 类 错误 。 
“game” X 应 用 其 实 包 含 “challenge game”sport 针对 因为 样本 数量 不 均衡 导致 的 误 分 类 的 问题 ， 使 用 对 训 
game""battle game"*car game” 等 多 种 ， 这 些 不 同 的 “game” 类 应 练 样本 数据 进行 处 理 的 方式 ， 比 较 常 用 的 方法 是 欠 抽 样 方法 和 
用 只 有 玩法 或 操作 上 的 区 别 ， 经 过 聚 类 算法 后 ， 它 们 被 划分 为 ” 过 抽样 方法 。 欠 抽样 方法 就 是 为 了 让 样本 数据 多 的 一 方 参照 数 


同一 个 类 型 。 表 5 中 ，“theme and wallpaper” 没 有 被 划分 到 ”” 据 少 的 一 方 ， 舍 弃 部 分 样本 数据 ; 而 过 抽样 方法 则 是 对 数据 样 
“wallpaper” 类 中 。 与 “game” 类 应 用 不 同 , 当 改 变 手机 的 壁纸 时 ， 本 采用 重复 抽样 的 方式 ， 以 达到 让 样本 数据 少 的 一 方向 数据 多 
只 会 让 手机 屏幕 桌面 的 背景 发 生 改变 ， 但 是 改变 主题 时 ， 会 引 ”的 一 方 并 齐 的 目的 。 


起 手机 里 的 图 标 、 桌 面 背景 、 整 体 颜色 发 生 改 变 ， 这 是 具有 很 在 集成 方法 中 有 一 种 bootstrap 抽样 方法 ,如果 原始 数据 集 
大 区 别 的 两 种 应 用 。 中 有 100 个 数据 ， 现 在 要 创建 用 于 训练 的 新 数据 集 ， 这 个 新 数 
分 析 这 些 应 用 ， 在 国内 ，“connection” 类 最 常用 的 应 该 是 。” 据 集 是 通过 在 原始 数据 集中 有 放 回 的 随机 抽样 100 次 得 到 的 。 
"wifi 万 能 钥匙 ”，“social” 类 如 “ 微 信 QQ” 等, “shopping” 类 如 将 欠 抽 样 方式 、 过 抽样 方式 与 bootstrap 抽样 方式 相 结合 ， 
“淘宝 “京东 ”等 ， 它 们 都 是 与 日 常生 活 紧 密 相关 的 应 用 类 型 ， 随机 从 样本 数据 多 的 一 方 选取 数据 样本 组 成 新 的 训练 样本 数据 。 
这 些 应 用 拥有 庞大 的 用 户 群 体 ， 因 而 更 容易 成 为 恶意 应 用 开发 。 ”新 的 训练 样本 数据 集中 样本 的 数量 接近 或 等 于 样本 数据 少 的 一 
者 的 目标 。 方 的 样本 数量 ， 从 而 使 样本 数据 数量 均衡 ， 进 而 避免 因为 样本 
3.5 判别 检测 数量 不 均衡 导致 的 误 分 类 问题 。 其 次 ， 欠 抽样 方式 可 能 导致 某 


在 进行 判别 检测 实验 前 首先 通过 VirusTotal 网 站 确定 了 应 。 些 具有 较 大 价值 的 样本 未 被 选 入 到 新 数据 样本 里 面 ， 为 了 避免 


用 程序 的 性 质 : 恶意 性 或 良性 ，5 000 多 个 应 用 程序 中 有 624 这 个 问题 的 发 生 , 可 以 采取 多 次 抽样 进行 实验 的 方式 达到 目的 。 
个 恶意 应 用 ， 其 在 各 个 类 别 中 的 分 布 如 表 6 所 示 。 设 样本 数据 多 的 一 方 数 据 集 为 4 ， 样 本 数据 少 的 一 方 数 据 集 
表 6 各 类 型 恶意 应 用 分 布 为 B , 若 4 中 样本 数量 是 好 中 样本 数量 的 上 倍 , 抽样 方法 如 下 : 
功能 类 型 数量 恶意 应 用 数量 a) 若 上 为 正 整数 ， 则 可 以 采用 在 A 中 随机 不 放 回 抽样 的 方 
connection 739 18 式 ， 将 4 拆 分 成 1 个 新 数据 集 ， 每 个 新 数据 集 分 别 与 B 组 合 得 
social 574 73 到 用 于 kNN 算法 的 :个 训练 数据 集 , 这 意味 着 选 定 上 值 后 ,kNN 
language 230 0 算法 需要 运行 :次 ， 得 到 同一 个 数据 的 上 个 测试 结果 ， 对 这 :个 
manager 1269 352 结果 采用 多 数 投票 的 方式 决定 最 后 分 类 结 
wallpaper 351 0 b) 若 : 不 是 正 整数 ， 则 可 以 将 A 拆 分 成 [个 新 数据 集 ， 
game 2836 23 前 站 ~1 个 数据 集 的 生成 方式 与 a) 中 相同 , SR [| 个 数据 集中 
shopping 183 17 不 够 的 数据 样本 可 以 在 原始 数据 集中 随机 不 放 回 地 选取 补充 。 
account and payment 192 36 每 个 新 数据 集 分 别 与 B 组 合 得 到 用 于 kNN 算法 的 [| 个 训练 数 
browser 156 1 据 集 ， 这 意味 着 选 定 上 值 后 ，kNN 算法 需要 运行 [+ | 次 ， 得 到 
news and sharing 961 135 同一 个 数据 的 [| 个 测试 结果 , 对 这 |z | 个 结果 采用 多 数 投票 的 
player 753 264 方式 决定 最 后 分 类 结果 。 
navigation 198 61 3.5.2 结果 评估 及 分 析 
theme and wallpaper 142 13 针对 “manager”‘player”‘news and sharing""advertisement"4 
advertisement 398 109 类 应 用 程序 样本 ， 都 采用 相同 的 样本 处 理 方式 ， 将 良性 应 用 样 
总 和 8982 1102 本 和 恶意 应 用 样本 都 以 2:1 的 比例 划分 成 训练 数据 样本 和 测试 
表 6 可 知 , 恶意 软件 主要 分 布 在 “manager”player”news 数据 样本 ， 则 上 述 4 类 应 用 程序 的 划分 结果 如 表 7 所 示 。 


and sharing”advertisement” 类 中 ， 其 余 类 型 中 虽然 也 有 恶意 软 
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表 7 各 类 样本 划分 结 
良性 应 恶意 应 
训练 样本 数 ”测试 样本 数 “训练 样本 数 ”测试 样本 数 
manager 846 423 235 117 
player 641 320 90 45 
news and sharing 502 251 176 88 
advertisement 265 133 73 36 
分 析 表 7 中 的 数据 ， 发 现 良性 应 用 样本 数量 比 恶 意 应 用 样 避免 因为 样本 数量 差距 太 大 造成 分 类 结果 错误 率 提升 的 问题 ， 
本 数量 多 ,“manager” 类 中 良性 应 用 样本 数量 是 恶意 应 用 样本 数 可 以 采用 3.5.1 节 所 述 方案 重新 创建 多 个 训练 样本 数据 集 。 则 
量 的 3.6 倍 ,“player” 类 中 良性 应 用 样本 数量 是 恶意 应 用 样本 数 “manager”‘player”‘news and sharing” 和 “advertisement” 类 的 训 
量 的 7.12 fi, "news and sharing” 类 中 良性 应 用 样本 数量 是 恶意 练 样本 集 数量 分 别 为 4、8、3、4 个 ,测试 样本 保持 不 变 。 重 新 
应 用 样本 数量 的 2.85 倍 , “advertisement” 类 中 良性 应 用 样本 数 划分 训练 集 的 结果 如 表 8~11 所 示 。 
量 是 恶意 应 用 样本 数量 的 3.6 倍 ， 样 本 数量 极为 不 均衡 。 为 了 
表 8 manager 类 样本 划分 结果 
应 用 程序 性 质 良性 应 恶意 应 用 
样本 集 训练 样本 集 1 “训练 样本 集 2 ”测试 样本 集 ”训练 样本 集 ”测试 样本 集 
数量 235 235 423 235 117 
样本 集 训练 样本 集 3 ”训练 样本 集 4 ”测试 样本 集 ”训练 样本 集 ”测试 样本 集 
数量 235 235 423 235 117 
表 9 player 类 样本 划分 结果 
lee 应 用 程序 性 质 良性 应 恶意 应 
- 样本 集 训练 样本 集 1 — 训练 样本 集 2 ”测试 样本 集 ”训练 样本 集 ”测试 样本 集 
TT 数量 90 90 320 90 45 
E 样本 集 训练 样本 集 3 ”训练 样本 集 4 ”测试 样本 集 ”训练 样本 集 ”测试 样本 集 
dei 数量 90 90 320 90 45 
一 样本 集 ”训练 样本 集 5 训练 样本 集 6 。 测试 样本 集 MARRE “测试 样本 集 
n 数量 90 90 320 90 45 
c 样本 集 训练 样本 集 7 ”训练 样本 集 8 ”测试 样本 集 ”训练 样本 集 ”测试 样本 集 
c 数量 90 90 320 90 45 
Q 表 10 news and sharing 类 样本 划分 结 
应 用 程序 性 质 良性 应 用 应 月 
训练 训练 训练 
样本 集 测试 样本 集 ”训练 样本 集 ”测试 样本 集 
样本 集 1 ”样本 集 2 样本 集 3 
数量 176 176 176 251 176 88 
表 11 advertisement 类 样本 划分 结果 
应 用 程序 性 质 良性 应 恶意 应 
样本 集 训练 样本 集 1 ”训练 样本 集 2 ”测试 样本 集 ”训练 样本 集 ”测试 样本 集 
数量 73 73 133 73 36 
样本 集 训练 样本 集 3 ”训练 样本 集 4 ”测试 样本 集 ”训练 样本 集 ”测试 样本 集 
数量 73 73 133 73 36 
将 每 个 类 型 的 多 个 训练 样本 的 权限 特征 向 量化 后 输入 到 为 评估 分 类 结果 , 假设 TP 代表 正确 分 类 良性 应 用 的 数目 ， 
KNN 算法 ， 再 使 用 测试 集 进行 分 类 测试 。 实 验 过 程 中 ， 为 避免 FP 代表 恶意 应 用 被 错误 分 类 为 良性 应 用 的 数目 ，TN 代表 正确 
出 现 归属 为 两 个 类 别 的 邻近 点 数量 相等 的 情况 ，* 值 均 在 奇数 分 类 恶意 应 用 的 数目 ，FN 代表 良性 应 用 被 错误 分 类 为 恶意 应 
中 选取 ， 对 四 种 类 型 的 应 用 程序 进行 分 类 时 的 取 值 范围 统 用 的 数目 ， 则 按照 分 类 实验 评估 方法 ，kNN 算法 对 每 个 功能 
为 {1,3,5} 。 型 的 分 类 结果 如 表 12 和 13 所 示 。 
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表 12 manager 类 和 player 类 分 类 结果 


manager 类 player 类 


k fä 
TP FP TN FN ”准确 率 ACC TP FP TN EN 准确 率 ACC 


1 403 13 104 20 0.9388 310 7 38 10 0.9534 
3 408 8 109 15 0.9574 307 10 35 13 0.9370 


3 405 10 107 18 0.9481 303 11 34 17 0.9233 


表 13 news and sharing 类 和 advertisement 类 分 类 结果 


news and sharing 类 advertisement% 


k 值 TP FP TN FN 准确 率 ACC TP FP TN FN 准确 率 


ACC 
1 240 10 78 11 0.9381 125 8 28 8 0.9053 
3 242 8 80 9 0.9499 128 6 30 5 0.9349 
5 243 8 80 8 0.9528 126 9 27 7 0.9053 


对 上 述 实 验 结 果 进 行 分 析 可 知 ， 四 类 应 用 最 高 准确 率 对 应 “从 应 用 程序 描述 元 信息 的 角度 ， 提 出 了 一 种 Android 恶意 软件 
的 x 值 并 不 相同 ，“manager” 类 在 值 为 3 时 准确 率 最 高 为 。” 检测 方法 。 经 过 实验 验证 ， 本 文 提 出 的 方法 是 有 效 的 。 本 文 提 
95.74%;“player” 类 获得 最 高 检测 率 为 95.3496, 此 时 大 值 为 1; 出 的 检测 方法 使 用 了 经 典 的 聚 类 和 分 类 算法 ， 算 法 检测 的 准确 
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“news and sharing” 类 获得 最 高 准确 率 为 95.28%, IERT k 值 为 5; 性 ,一 定 程度 上 依赖 于 聚 类 和 分 类 的 效果 ;算法 检测 的 准确 性 ， 
“advertisement” 类 获得 最 高 准确 率 为 93.49%, JENY k 值 为 3。 仍 有 一 定 的 改进 空间 ， 这 将 是 本 文 下 一 步 的 工作 。 
四 类 应 用 的 平均 准确 率 分 别 为 94.81%、93.79%、94.69%、91.51%。 参考 文献 ， 
表 14 相关 方法 对 比 ` 
检测 方法 检测 率 [1] Feizollah A, Anuar N B, Salleh R, et al. A review on feature selection in 
文献 [11] 方 法 92.86% mobile malware detection [J]. Digital Investigation the International 
文献 [14] 方 法 8796 Journal of Digital Forensics & Incident Response, 2015, 13 (C): 22-37. 
文献 [16] 方 法 93.6794 [2] Sarma B P, Li N, Gates C, et al. Android permissions: a perspective 
文献 [17] 方 法 81.18% combining risks and benefits [C]// Proc of ACM Symposium on Access 
本 文 方法 94.8196 Control Models and Technologies. New York: ACM Press, 2012: 13-22. 
3614 展示 了 本 文 方法 与 近 几 年 相关 工作 的 对 比 情况 。 文 献 [3] AEF, E. Android 恶意 软件 静态 检测 模型 D]. 吉林 大 学 学 报 : 工 
[11,14] 的 方法 都 使 用 权限 特征 ， 不 同 的 是 文献 [11] 使 用 权限 信 学 版 , 2018, 48 (2): 564-570. (Yang Hongyu, Xu Jin. An Android malware 
息 和 权限 提升 威胁 信息 作为 研究 对 象 ， 文 献 [14] 试 图 挖掘 权限 static detection model [J]. Journal of Jilin University: Engineering and 
组 合 关系 与 恶意 应 用 相关 的 规则 。 这 两 种 方法 均 具 有 一 定 的 检 Technology Edition, 2018, 48 (2): 564-570. ) 
MAR, i op iss c S PEINE, RETRA NE [4] Chen Jian, Alalfi M H, Dean T R, et al. Detecting Android malware using 
的 权限 信息 。 clone detection [J]. 计算 机 科学 技术 学 报 : 英文 版 ，2015，30 (5): 
文献 [16,17] 的 方法 均 涉 及 元 信息 的 使 用 ， 元 信息 可 以 直接 2427230; 
从 应 用 市 场 提取 ， 不 需要 经 过 如 反 编 译 等 过 程 ， 更 加 方便 。 文 [5] 李 根 . Android 系统 恶意 代码 检测 技术 研究 [D]. 哈尔滨 : 哈尔滨 工业 
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